还没有笔记
选中页面文字后点击「高亮」按钮添加
📜 [原文1]
我们的原始数据集包含美国和中国市场股票的逐笔交易与报价记录。我们收集了美国市场从 1993 年到 2023 年以及中国市场从 2014 年到 2023 年的数据。在大部分分析中,我们关注 2019 年到 2021 年期间,但在适当的情况下,我们使用完整的数据集进行稳健性和时间序列模式分析。我们从纽约证券交易所交易与报价 (TAQ) 数据库获取美国市场的数据,从中收集了 2019-2021 年 757 个交易日内作为标准普尔 500 指数成份股的股票信息。我们从深圳证券交易所 (SZSE) 历史逐笔数据 11 获取中国市场的数据,其中包含 2019-2021 年 730 个交易日内在深交所交易的所有 2,081 只股票。因此,我们的主数据集包含总共 2573 ($492+2081$) 只股票的日内交易数据(交易和报价)。
这段话是论文数据部分的开篇,旨在清晰地告知读者本研究使用了哪些数据、数据的时间跨度、来源以及最终筛选出的样本范围。这是任何实证研究的根基,其目的是为了保证研究的透明性和可复现性。
这个简单的加法清晰地展示了研究覆盖的广度。
📜 [原文2]
根据原始数据,我们每三秒计算一次所有股票在所有交易日内的日内交易量。在美国市场,公开市场交易时间为上午 9:30 至下午 4:00。因此,每只股票在每个交易日的时间序列包含 7,800 个数据点(390 分钟 / 3 秒)。在中国市场,公开市场交易时间为上午 9:30 至 11:30 以及下午 1:00 至 2:57。$\sqrt{12}$ 因此,每只股票在每个交易日的时间序列包含 4,740 个数据点(237 分钟 / 3 秒)。总计,我们处理后的 3 秒时间序列数据包含约 $10^{10}$ 个样本 ($492(\text{股票}) \times 757(\text{天}) \times 7800+2081(\text{股票}) \times 730(\text{天}) \times 4740$)。
这一段详细说明了作者如何将原始的、非等间隔的逐笔交易数据转换为等时间间隔的时间序列数据,这是进行谱分析等时间序列分析方法的前提。
本段包含一个核心的计算总样本量的公式:
📜 [原文3]
在我们的分析中,我们计算了三个版本的交易量,包括成交笔数、成交股数以及以货币衡量的成交额(美国为美元,[^6]中国为元)。在本文中,我们广义地将它们统称为交易量。我们在第 5.1.1 节讨论了它们的区别,以及为什么我们将成交笔数作为我们的主要研究对象。
这一段定义了研究中“交易量”这个核心变量的三种不同衡量方式,并预告了为何最终选择其中一种作为主要分析对象。
📜 [原文4]
附录 B 中的表 A.1 提供了我们三秒日内交易量时间序列的汇总统计。平均而言,美国市场股票每三秒执行 4.38 笔交易,这比中国市场的笔数高出约 50%。此外,在跨股票和跨时间维度上,三秒窗口内的成交笔数存在巨大差异。
我们还根据从原始逐笔数据中获得的日内价格和成交量信息,计算了几个特征来衡量每只股票每天的价格效率、波动率和交易活跃水平。这些特征在第 5.1.2 节中使用。我们还在第 5.2.2 节的价格冲击回归分析中使用了原始逐笔报价和交易数据。
这一段是对数据特征的补充说明,并为后续章节的分析埋下伏笔。
📜 [原文5]
动机实例。众所周知,美国股市的日内交易量呈现 U 型模式。在中国股市,由于上午 11:30 至下午 1:00 的午休时间,日内交易量呈现两个 U 型。我们使用两只代表性股票——苹果公司 (AAPL) 和平安银行 (000001.SZSE) 来展示这种模式,它们是两个金融市场中两家大盘上市公司。
图 1a 1b 显示了这两只股票在 2019-2021 年所有交易日平均后的、以每个三秒窗口内的成交笔数衡量的日内交易量。除了清晰的 U 型(或双 U 型)日内模式外,两只股票的时间序列至少在视觉上看起来充满了噪声。
然而,当我们关注横截面平均交易量时,这些模式看起来非常不同。图 1c 1d 显示了在 2019-2021 年所有交易日和所有股票上平均后的、以每个三秒窗口内的成交笔数衡量的日内交易量。横截面平均作为一种降噪机制。在中国市场(图 1d),每隔五分钟或十分钟就会出现明显的尖峰,这恰好与垂直网格代表的五分钟时间间隔边界相吻合。虽然不像中国市场那样明显,但同样的模式也存在于美国市场(图 1c),其尖峰往往发生在五分钟时间间隔的边界处。
这个简单的例子清楚地表明,两个市场的交易活动中都存在重要的周期性。

图 1:2019-2021 年两只个股的平均日内交易量 (a-b) 以及两个股市的平均值 (c-d)。每个数据点代表所有交易日前三秒窗口内的平均成交笔数。例如,平安银行在 13:30:03 的数值为 18.08,这意味着在 2019-2021 年的 730 个交易日中,每天 13:30:00 到 13:30:03 之间平均有 18.08 笔交易。垂直灰色线代表 5 分钟网格。
然而,由于低信噪比,在个股层面揭示这些周期性可能很困难。在下一节中,我们开发了一个框架来系统地建模和估计日内交易活动中的周期性。
这部分是本节乃至整篇论文的核心动机所在。作者通过一个直观的图形化例子,提出了本文试图解决的关键问题:交易活动中存在着微弱但普遍的周期性信号,这些信号在单个股票层面被噪声淹没,但在市场总体层面清晰可见。如何有效提取和建模这些周期性信号?
本节首先详细介绍了研究使用的数据集,涵盖了中美两个主要市场,时间跨度长,样本量巨大(约 $10^{10}$ 个数据点)。数据处理的核心步骤是将高频逐笔交易数据转换为 3 秒为间隔的时间序列,并定义了成交笔数、股数、额三种交易量指标。然后,通过一个直观的“动机实例”,文章展示了著名的日内交易量“U 型”模式,并揭示了一个更深层次的现象:在个股层面被噪声淹没的高频周期性(如 5 分钟、10 分钟的交易脉冲),在对整个市场进行横截面平均后清晰地显现出来。
本节的核心目的有三个:
可以将日内交易活动想象成一个庞大的交响乐团在演奏。
想象一下你在海边观察沙滩上的波浪。
1. 处理后的3秒时间序列数据的总样本量计算公式:
* 行间公式完整性:
* 源文件共 1 个行间公式:
* 解释文件共 1 个行间公式,并已在 行间公式索引 章节中被正确引用、解释和编号。
* 结果: 通过。
* 字数检查:
* 源文件字数: 约 1100 字。
* 解释文件字数: 约 5500 字,显著超过源文件字数。
* 结果: 通过。
* 段落结构映射检查:
* 源文件的标题和段落结构(数据来源、数据处理、指标定义、辅助特征、动机实例、图表及解释、总结等)均已在新标题体系 1.1 至 1.6 中得到准确、连续的映射和覆盖。所有原文内容均被包含和解释,无遗漏段落。
* 结果: 通过。
* 阅读友好检查:
* 全文使用了 [原文]、[逐步解释]、[公式与符号逐项拆解和推导]、[具体数值示例]、[易错点与边界情况]、[总结]、[存在目的]、[直觉心智模型]、[直观想象] 等结构化标签,层次分明,便于读者快速定位和理解。
* 关键术语(如 逐笔交易与报价记录, 周期性, 波动率, 信噪比)已加粗并给出详细解释。
* 提供了多个具体的数值示例(如交易量计算、降噪机制)和两个直观的想象模型(交响乐团、海浪),将抽象的金融概念具体化、形象化。
* 结果: 通过。
[[END_OF_RESPONSE]]所有解释内容已全部输出完毕。